国信证券：文生视频大模型Sora发布，训练算力需求大幅提升

资讯 2024-02-20 281

摘要：

2024年2月16日，OpenAI发布首款文生视频大模型Sora，可以快速生成60秒、准确反映用户提示的视频，在多镜头一致性等维度表现出色。

国信计算机认为，1）OpenAI发布首款文生视频大模型Sora，可以快速生成60秒、准确反映用户提示的视频，其在视频长度、多角度视频一致性、物理世界理解等领域具有优势；

2）Sora技术原理：通过已知Patches推测下一Patches，将Transformer和Diffusion相结合；

3）多模态大模型拉动训练算力需求提升。

4）投资建议：多模态大模型拉动全球算力需求快速增长，关注国产AI算力侧机会，建议关注国产AI算力龙头公司海光信息

原文：

OpenAI发布首款文生视频大模型Sora，可以快速生成60秒、准确反映用户提示的视频。

2024年2月16日，OpenAI发布首款文生视频大模型Sora，可以快速生成60秒、准确反映用户提示的视频，其具有60秒超长长度、多角度视频一致性、对物理世界理解等特性。

Sora可生成60秒超长视频。相较于Runway MLGen-2、Pika等文生视频大模型，Sora可以生成60秒一镜到底的视频，视频逻辑顺畅、主人物及背景的行人均非常稳定，文生视频大模型能力进一步提升。

Sore多角度视频一致性。Sore可以在单个生成视频中创建多个镜头，以准确保留角色和视觉风格。根据OpenAI官网发布的Demo，59秒的视频中，有多角度镜头，且主人物保持了完美的一致性。

Sore在尝试理解物理世界。根据OpenAI官网披露，Sore不仅可以理解用户Prompt的要求，同时亦尝试理解Prompt中的事物在物理世界中的存在方式（即物理规律）。根据OpenAI官网Demo视频中，汽车在山路行驶中的颠簸，以及猫踩奶等动作符合物理世界规律，视频逼真度进一步提升。

Sora技术原理：Transformer+Diffusion

通过已知Patches推测下一Patches。传统大语言模型通过已知Tokens推测下一Tokens，Sora同大语言模型类似，将视频数据切分成不同Patches（即大语言模型中的Tokens），通过已知Patches推测下一Patches。通常可以分为以下两个步骤：1）将高纬度视频数据压缩成低纬度隐空间（Latent Space）：OpenAI通过训练视频压缩网络实现该步骤，通常将视频数据作为输入（input），后对视频数据进行时间和空间维度的压缩，并输出（output）潜在表示（latent representation）。2）进一步将数据转化为Spacetime Patches：提取一系列的latent Space作为训练/推理的Tokens，完成对模型的训练。

通过Diffusion还原画面。如前文所述，通过已知Patches推测下一Patches，得到的是Latent Patches，OpenAI通过训练Decoder将得到的latentSpace映射到像素空间，再通过Diffusion模型进一步还原画面。

多模态大模型拉动训练算力需求提升

OpenAI没有公布Sora视频数据切割的细节，我们以ZeLiu等著《Video Swin Transformer（2021）》为例，输入一个尺寸为T×H×W×3的视频（此处T选取32，代表从视频中采样得到32帧，采样方法可自行选择，通常为等间隔采样，视频长度通常约10s；每帧包含H×W×3个像素），通过3DPatchPartition可以得到(T/2)*(H/4)*(W/4)个3DPatch（尺寸为2*4*4*3），即为Tokens，之后再经过Video Swin Transformer和PatchMerging获得多帧数据的高维特征，完成视频数据训练。根据《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning（Pablo等著，2022年）》披露数据，Youtube每分钟大约上传500小时视频，则我们可以得到Youtube一年增量视频数据为500×3600×24×365=157.68亿秒。通常分类任务视频为10s左右，对应采样帧数为32，假设每帧图片分辨率为1024×768，则10s视频对应的Token数量为(32/2)*(1024/4)*(768/4)=78.64万个Tokens，则Youtube一年增量视频数据为1.24e15个Tokens，假设使用Youtube一年增量视频数据对5000亿大模型完成一遍训练对应的算力需求为500B×1.24e15×6=3.72e27 FLOPs。以英伟达H100为例，在FP16精度下算力为1979TFLOPS，仍假设芯片利用率为46.2%，则3.72e27 FLOPs/(1979 TFLOPs×46.2%×3600s×24h/天×30天/月)=156.98万张H100/月，即完成对视频数据的训练需使用156.98万张H100训练一个月（针对单一模型，仅计算Youtube一年增量视频数据）；且后续Video Frame Interpolation（VFI，帧插值）模块仍需要算力支撑。

投资建议：

多模态大模型拉动全球算力需求快速增长，关注国产AI算力侧机会。AI训练算力同大模型参数、训练Token数量成正比例关系，在模型参数量不变的条件下，训练Token数量的增长会拉动训练算力需求的增长。经我们测算，视频等训练素材将对应巨量的Token数量，进而拉动全球AI算力需求快速增长，我们持续看好国产算力需求提升，建议关注国产AI算力龙头公司海光信息。

风险提示：

宏观经济复苏不及预期，云厂商资本开支不及预期，市场竞争加剧，产品研发不及预期，国产AI算力芯片导入不及预期等。

本文源自券商研报精选

本站涵盖的内容、图片、视频等数据系网络收集，部分未能与原作者取得联系。若涉及版权问题，请联系我们删除！联系邮箱：ynstorm@foxmail.com 谢谢支持！

阿玛拉王国惩罚装备(有没有类似魔兽世界的

造梦西游online(造梦西游onlin